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基于 recurrent neural networks 的 网 约 车 供需 预测 方法 ” 
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摘 要 : 以 网 约 车 订单 等 真实 数据 为 数据 源 ， 结 合 TensorFlow 深度 学 习 框 架 ， 利 用 循环 神经 网 络 (recurrent neural 
networks) 方法 ， 预 测 网 约 车 在 未 来 某 时 间 某 地 点 的 订单 需求 量 。 提 出 改进 LSTM RNN (长 短 时 记忆 循环 神经 网 络 ) 
模型 ， 经 过 对 其 优化 和 训练 ， 能 够 有 效 预 测 网 约 车 未 来 某 时 间 某 地 点 的 供需 量 。 对 数据 源 进行 可 视 化 分 析 ， 排 除 不 相 
关 数 据 源 干扰 ， 以 此 为 基础 设计 仿真 实验 。 仿 真实 验 表 明 ， 该 模型 的 正确 率 比 反 向 传播 神经 网 络 (BPNN) 、 回 归 决 
RA (DTR) 、 非 线性 回归 支持 向 量 机 (SVR) 以 及 随机 漫步 (RW) 等 模型 高 ， 同 时 ， 对 长 短 间隔 不 同 的 历史 数据 
有 较 好 的 记忆 能 力 ， 在 测试 数据 上 有 较 强 的 泛 化 能 
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Prediction method of supply and demand for online car based on recurrent neural networks 
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Abstract: Orders from online car as data sources, using TensorFlow and recurrent neural networks, to predict the supply and 


demand for online car at a certain point in the future. This paper presents the model of LSTM RNN, which is optimized and 


trained to effectively predict the supply and demand of the online car at a certain point in the future. Visual analysis of data 


ae source, help excluding uncorrelated data source, which is the basic to design simulation experiment. Simulation experiments 
show that the accuracy of the model proposed is higher than back propagation neural network (BPNN) and decision tree 
regression(DTR) , nonlinear support vector regression machine (SVR) and random walk (RW) , at the same time, the excellent 
memory capability of different length of historical data, and the excellent generalization capability on the test set. 
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算法 ， 而 且 系 统 的 稳定 性 较 高 门 。TensorFlow 受到 学 术 界 和 工 


0 引言 
一 业界 的 关注 ， 例 如 Geoffrey Hinton 等 人 利用 TensorFlow 深度 
深度 学 习 在 人 工 智 能 研究 领域 的 贡献 逐渐 增 大 ， 特 别 是 在 学 习 框 架 进 行 胶囊 网 络 的 实验 ， 结 合 提出 的 动态 路 由 方法 ， 对 


员 和 图 像 识别 外 方面 ， 此 外 ， 研 究 者 利用 深度 学 习 方 比 标准 卷 积 神经 网 络 ， 在 识别 重 半 数字 问题 上 ， 取 得 良好 的 实 
法 在 其 他 领域 的 研究 也 得 到 了 良好 效果 ， 例 如 围棋 人 工 智 能 RII, Wongsuphasawat 等 人 提出 基于 TensorFlow 的 数据 流 
AlphaGoD3l。 深 度 学 习 算法 大 致 上 可 以 分 为 四 类 : 深层 神经 网 图 可 视 化 方法 外 ， 优 步 (Uber) 基于 TensorFlow 的 AlexNet 深 
络 、 卷 积 神经 网 络 、 循 环 神经 网 络 和 增强 学 习 只 。 伴 随 这 些 深 度 学 习 模型 实现 无 人 驾驶 技术 00，Twitter、 京 东 、 小 米 等 公 
度 学 习 方法 的 快速 发 展 ， 越 来 越 多 的 深度 学 习 框 架 受 到 人 们 关 司 也 在 使 用 TensorFlow。 综 上 所 述 ， 本 文 使 用 TensorFlow 深 
注 ， 例 如 TensorFlow!!, Caffe, Keras, CNTK. MXNet 等 等 。 度 学 习 框 架 进行 实验 。 
TensorFlow 是 谷歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 ， 网 约 车 的 供需 变动 与 订单 量 的 变化 有 关 ， 同 时 与 天 气 、 区 
其 计算 模型 能 够 有 效 地 支持 包含 深层 神经 网 络 在 内 的 深度 学 习 或 配套 、 交 通 状 况 等 因素 有 关 ， 因 此 ， 供 需 变 动 具有 高 度 非 线 
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性 和 高 度 随机 性 ， 准 确 预 测 供需 缺口 具有 一 定 难度 。 人 工 神 经 ”神经 网 络 提出 改进 人 工 蜜蜂 群体 算法 用 于 交通 预测 P9，Wang 
网 络 CANN) 具有 解决 非 线性 和 随机 性 问题 的 能 力 00; 数据 。 等 人 提出 DeepSD 深层 神经 网 络 模型 预测 网 约 车 供需 量 司 。 然 
源 中 的 数据 是 时 间 序 列 数据 ， 循 环 神经 网 络 RNN) 能 对 时 ”而 ， 现 有 的 这 些 非 参数 化 方法 ， 均 要 求 预先 定义 训练 数据 长 度 
间 序 列 进行 预测 52， 下 文 详 细 分 析 数 据 源 的 时 间 依 赖 性 ; 在 ”上 且 不 能 改变 ， 而 且 较 少 考虑 天 气 、 交 通 拥堵 状况 、 区 域 配套 等 
测试 集中 ， 拟 预测 的 时 间 片 的 前 半 小 时 的 数据 信息 已 知 ， 但 是 言 息 ， 数 据 源 来 自 监测 站 或 智能 交通 系统 (ITS)〉 ， 本 文 使 用 
下 一 时 间 片 的 供需 变动 除 与 短 时 间 内 的 数据 有 关 ， 同 时 与 距离 。 网 约 车 数据 进行 研究 。 
该 时 间 片 较 远 的 时 间 段 的 数据 有 关 ， 因 此 ， 提 出 使 用 长 短 时 记 本 文 围绕 上 述 问题 展开 研究 工作 ， 为 了 提高 供需 预测 的 准 
忆 循 环 神经 网 络 (LSTM RNN) 作为 解决 供需 预测 问题 的 方法 。 确 率 ， 提 出 一 种 被 称 为 长 短 时 记忆 循环 神经 网 络 的 模型 (LSTM 
交通 优化 调度 是 智慧 城市 建设 过 程 中 的 重要 环节 。 传 统 的 RNN)， 该 模型 可 以 更 有 效 地 捕捉 到 数据 源 的 非 线 性 和 随机 性 ， 
针对 交通 流 的 研究 集中 在 两 方面 ， 一 方面 利用 出 租车 GPS 位 昌 通 过 记忆 块 克服 了 误差 反 向 传播 的 衰变 问题 ， 同 时 ， 满 足 
置 、 车 速 等 信息 反映 道路 拥堵 程度 ， 另 一 方面 利用 出 租车 积攒 。” 了 数据 源 对 时 间 序 列 的 依赖 性 。 而 且 ，LSTM RNN 在 测试 集 
的 历史 数据 或 者 道路 监测 站 收集 的 数据 ， 通 过 参数 方法 或 者 非 ” 上 取得 了 更 高 的 预测 精度 。 
参数 方法 进行 挖掘 。 
数据 源 分 别 从 空间 角度 和 时 间 角 度 分 析 ， 空 间 上 ， 把 一 个 
城市 划分 为 n 个 互 不 重合 的 正方 形 区 域 ， 并 表示 为 集合 循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 ， 并 能 
D={dild; s[58}， 时 间 上 ， 把 一 天 的 24 小 时 划分 为 144 个 10 利用 历史 信息 帮助 解决 当前 问题 ， 因 此 能 够 利用 传统 网 络 结构 
分 钟 长 度 的 时 间 片 ， 并 表示 为 集合 T={tilt e014 和 ， 并 与 。” 不 能 捕捉 的 信息 ， 在 数据 源 中 ， 影 响 某 一 时 间 片 内 供需 缺口 大 
time ={0000,0010...2350} 逐 一 对 应 ， 有 学 者 采用 15 分钟 作 为 。 小 的 因素 ， 除 了 订单 需求 和 供给 之 外 ， 还 可 能 有 交通 、 天 气 以 


1 ”长 短 时 记忆 循环 神经 网 络 (LSTM RNN) 


Mm 


时 间 段 忠 。 基 于 空间 和 时 间 这 两 个 维度 ， 对 于 区 域 d, ED , 及 星期 等 等 。 

在 时 间 片 t) eT 了 ， 定 义 供需 缺口 84p; ， 表 示 没 有 司机 接 单 的 LSTM 由 Hochreiter 和 Schmidhuber! Æ 1997 年 提出 ， 循 

订单 数量 和 。 环 结构 的 神经 网 络 使 得 输入 的 时 间 序 列 数据 能 够 被 记忆 ， 通 过 
供需 预测 是 交通 流量 预测 的 一 部 分 ， 对 短 时 交通 流量 的 预 状态 向 量 State 向 后 传递 历史 信息 ， 因 此 ， 状 态 向 量 的 定义 


i A 


测 方 法 有 参数 化 方法 和 非 参 数 化 方法 两 大 类 。 在 早期 的 研究 中 ， ”循环 神经 网 络 (RNN ) 的 关键 之 一 。 然 而 ， 随 着 循环 的 进行 ， 
卡尔 曼 过 滤 模 型 作为 典型 的 参数 化 方法 经 常 被 应 用 到 交通 。 较 早 时 刻 的 信息 对 当前 时 刻 的 供需 缺口 影响 就 会 消失 ， 即 梯度 
流量 的 预测 ， 参 数 化 方法 的 模型 结构 基于 某 种 理论 假设 ， 模 型 ” 消失 问题 P21， 在 本 文 第 四 部 分 对 数据 源 可 视 化 的 分 析 中 ， 时 
的 参数 预先 根据 经 验 数 据 计 算得 出 。 应 用 最 广泛 的 参数 化 方法 
是 一 种 叫做 自 回归 整 型 滑动 平均 模型 (ARIMA) 的 方法 ， 该 


间 序列 数据 的 长 度 是 DataLenth =144*23=3312d, € D , 


= 


模型 假设 交通 状态 是 静止 的 。ARIMA 方法 又 写 做 影响 下 一 时 间 片 供需 缺口 大 小 的 历史 信息 ， 与 当前 时 刻 的 距离 
ARIMA(p,d,q)，p、d、q 代表 三 个 参数 ，Levin 和 Tsao 利用 该 ” 有 长 有 短 ， 包 含 距离 当前 时 刻 较 近 的 前 几 个 时 间 片 的 信息 ， 也 
方法 预测 高 速 公路 上 的 交通 流 ， 得 出 ARIMA(0,1,1) 是 最 有 效 。 包含 前 几 天 该 时 刻 、 该 区 域 以 及 周围 时 间 片 的 数据 信息 。 
模型 的 结论 5。 交通 流量 具有 非 线性 和 随机 性 的 特点 ， 因 此 ， 

传统 的 模型 不 能 准确 、 有 效 进行 预测 。 在 人 工 智能 领域 ， 例 如 加 

SVM 或 SVR 等 方法 对 无 规律 数据 捕捉 特征 能 力 更 强 09， 近 年 a a A 

来 ， 非 参数 化 的 方法 受到 重视 。 支 持 向 量 机 (SVM) 的 本 质 (a) (Œ) TORR 

是 把 数据 通过 非 线 性 关系 映射 到 高 纬 空 间 ， 然 后 在 这 个 高 纬 空 PALNA. E E 
间 进 行 线性 回归 ，Castro-Neto 等 人 利用 OL-SVR 方法 对 交通 流 人 T. -E ee 
量 在 传统 条 件 和 非 传统 条 件 〈 例 如 节假日 和 交通 事故 ) 下 进行 OO Ge 
THO, ANN 也 是 人 工 智能 领域 在 交通 流量 预测 问题 上 应 F 

用 广泛 的 方法 之 一 ，ANN 能 够 解决 具有 高 纬 数 据 、 复 杂 的 模 ee 

型 结构 特点 的 问题 ， 并 且 具 有 较 强 的 泛 化 能 力 和 学 习 能 力 09。 


LC 


Vlahogianni 等 人 通过 遗传 算法 优化 了 神经 网 络 并 把 模型 应 用 LSTM 结构 包括 1 个 输入 层 、1 个 循环 体 结构 和 1 个 输出 
到 了 短 时 交通 流量 预测 的 研究 中 09，Yu 等 人 利用 BP 神经 网 络 。 层 ， 如 图 1 所 示 。 循 环 体 结构 包含 3 个 门 : 遗忘 门 、 输 入 门 、 
监测 交通 堵塞 01，Chai 等 人 利用 小 波 分 析 方 法 和 神经 网 络 预 。 输出 门 ， 门 指 的 是 以 sigmoid 为 激活 函数 的 神经 网 络 和 一 个 按 
则 短 时 交通 流量 ;Chen 利用 RBF 神经 网 络 预测 交通 流量 ， 位 做 乘法 的 操作 集合 ， 以 sigmoid 为 激活 函数 的 神经 网 络 输出 
提出 三 种 算法 优化 RBF HARA; Wang 等 人 利用 BP ”一 个 0 到 1 之 间 的 数值 ， 描 述 当 前 输入 是 否 可 以 通过 这 个 结构 。 
经 网 络 预测 公交 流量 并 提出 优化 策略 P31; Yu 等 人 基于 RBF ”” 门 结构 可 以 缓解 梯度 消失 问题 ， 例 如 在 第 四 部 分 的 实验 中 ， 时 
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录用 稿 
间 序 列 数据 (3456 维 ) 在 当前 时 刻 输入 时 ， 若 输入 门 关闭 
(sigmoid 神经 网 络 输出 层 输 出 0) ， 则 当前 时 刻 的 输入 不 会 影 
响 当 前 时 刻 的 状态 state 。 

定义 时 间 序 列 数据 集合 X = (24,5, Xp}, RASS 
state 集合 有 ={ 有 ,有 b,.…h},ieZ， 己 知 的 供需 缺口 值 集合 


(样本 标签 ) 


是 Y= {yest ， 其 中 ， 期 date 的 范 围 是 : 


date € {0223,0224,...0317} ， 
time € {0000,0010,...2350} 。 


时 间 


time 的 范围 是 : 


前 向 传播 结果 y 通过 以 下 两 个 方程 获得 : 
h = = HW x; + Wh iaden h,_ 1 + Pridden) (1) 
GaP jate time E hW uput output 2) 


FH, hy =(0,0...0), x, = GAP gare time, ， H AAEE 3 个 门 


的 隐藏 层 循环 结构 体 ， 它 的 实现 方程 如 下 : 
f. = sigmoid(W,c,, + Wh, +Wyx,+b;) 6) 
i = sigmoid(W. ci C,- 了 十 全 +W x, 十 已) (4) 
c, = fic, + sigmoid” (W,.x,+W,,h,,+b.)i, (5) 


f RUER] (forget) 函数，i 函数 是 输入 门 (input) 


元 激活 值 〈cell) 函数 ， 它 受到 遗 


贵 忘 门 和 输入 门 


HHI, sigmoid” e 
sigmoid 函数 是 激活 函 


[-2,2] Æ sigmoid €[0,1] ef 
数 , 它 的 定义 如 下 : 


(0) 
1+e 一 


数 的 转换 函数 ， 


sigmoid(x) = 


输出 门 Coutput) 定义 如 下 : 


O, = sigmoid(W.,c, “Whi: 1 +W,,x, +b,) (7) 
状态 向 量 State 受到 输出 门 的 影响 ， 其 函数 如 下 : 
h, =0,sigmoid™ (c,), sigmoid €[-1,1] (8) 
数据 源 的 训练 集 在 第 四 部 分 作出 详细 介绍 ， 利 用 训练 集 数 
据 对 上 述 LSTM RNN 模型 进行 训练 ， 误 差 反 向 传播 ， 使 损失 
函数 最 小 ， 损 失 函 数 的 定义 如 下 : 
1 1 i 
MAE = oI È |CaPanes — GaP dates, ) (9) 
给 定 某 区 域 d SER date TEM MF tj tia NA, M 


对 于 Vd, eD., 


对 于 个 区 域 和 9 个 时 间 


W GaP dare jus FF 


片 ， 区 域 w € DD 在 时 间 片 t) ET BEAR GOP dares, » 


预测 


ChinaXiv 合 作 期 
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值 为 GaP jute. ?, 以 MAE 作为 损 失 eA BL 3 


2 LSTM RNN 算法 


时 间 序 列 数据 根 


的 供需 值 作为 标签 ， 组 

算法 1 样本 集 构造 算法 

输入 : 时 间 序 列 数据 seq， 截 断 长 度 TIMESTEPS。 

输出 ， 样 本 集合 X, 样 本 集合 标签 Y。 

1.def generate_data(seq, TIMESTEPS): 

2.for i in range(len(seq) - TIMESTEPS): 

3.X.append([seq[i:itTIMESTEPS]]) 

4.Y.append([seq[i+TIMESTEPS]]) 

5.return X, Y 

为 了 使 LSTM RNN 模型 更 

的 过 分 拟 合 ， 
化 能 力 ， 

取 整 数 1、 以 概率 1 一 获取 整数 0 的 二 分 类 函数 28， 

单元 的 激活 值 是 否 生效 ， 


加 健壮 ， 
提高 模型 在 测试 数据 上 的 精度 ， 即 提 


= 


FE 


居 截 断 长 度 划 分 为 样本 数据 ， 即 拟 预测 时 
间 片 前 阶段 长 度 个 时 间 片 内 的 供需 值 作为 样本 ， 拟 预测 时 间 片 
成 为 完整 的 单个 样本 ， 如 算法 1 所 示 。 


避免 模 型 对 训练 数据 
高 模型 的 泛 
在 单元 激活 值 函数 5) 的 基础 上 ， 增 加 以 概率 P 获 
目的 是 
根据 函数 的 取 值 进行 有 效 性 判断 ， 


十 | 
则 方法 


若 Binary(p)=1， 则 激活 值 有 效 ， 若 Binary(p)=0， 则 激活 


值 失 效 ， 如 下 : 
c, = Binary pX f,c, 4 


+ sigmoid” (W „x, + W,,h,_, +b.)i,) 


(10) 


构造 LSTM RNN 单 层 的 网 络 结构 ， 如 算法 2 (2) 所 示 ， 


构造 二 分 类 函数 用 于 对 单 


层 结 构 的 优化 ， 如 算法 2 (3) 所 示 ， 
把 NUM_LAYERS 个 经 过 二 分 类 函数 优化 后 的 单 层 网 络 结构 拼 


接 成 完整 的 LSTM RNN 结构 ， 如 算法 2 (4) 所 示 ， 然 后 计算 


得 出 通过 LSTM RNN 
连接 层 网 络 结构 ,得 到 j 
(6) 


前 向 


传播 得 到 输出 Output， 经 过 


所 示 : 
算法 2LSTM RNN 构造 算法 
输入 : 样本 集合 X, PARAMS Y, k 
HIDDEN_SIZE， 隐 藏 层 数 NUM_LAYERS 。 
输出 : 预测 结果 prediction， 损 失 函 数 loss 
1.def Istm_model(X,Y,HIDDEN_SIZE,NUM_LAYERS): 
2. Istm_cell~-BasicLSTMCell(HIDDEN_SIZE) 


drop_lstmDropout(Istm_cell,output_keep_prob) 
cell—MultiRNNCell([drop_lstm] * NUM_LAYERS) 
Outputrnn(cell, X) 


prediction, lossregression(output, Y) 


IN om 


return prediction, loss 

算法 1 的 时 间 复 杂 度 为 0(1)， 算 法 2 的 时 间 复 杂 度 包 
个 部 分 ， 表 示 如 下 
O(KH + KCS + HI + CST) = O(W) 


一 个 全 
预测 值 和 损失 函数 值 ， 如 算法 2 (5) 和 


藏 节点 的 个 数 


a4 


(11) 


其 中 : K 表示 输出 单元 数 ， 
元 数 ，S 表示 记忆 单元 大 小 ,I 表示 前 馈 连 接 记 忆 单 元 、 


H 表示 隐藏 单元 数 ，C 表示 记忆 单 
门 单 
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元 以 及 隐藏 单元 数 。 
结构 和 输入 时 间 序 列 长 度 P91， 


表示 权重 数量 ， 因 此 ，LSTM RNN 具有 


LSTM RNN 的 时 间 复 杂 度 不 依赖 于 网 络 
其 时 间 复 杂 度 为 O(W)， 其 中 W 
高 效 性 。 


安 Æ, #: 基于 recurrentneuralnetworks 


E P4, = {ordersCourt,, ,|j €[1,58]} 与 


E Pju = {ordersCoun, „li e[1,58]} HK 


所 有 图 灵机 都 可 由 建立 在 用 sigmoid 激活 函数 的 神经 元 上 
的 完全 连接 循环 网 络 模拟 B0， 图 灵机 能 够 计算 任意 可 计算 函 
数 。 激 活 函 数 式 (6) sigmoid 函数 ， 因 此 ， 本 文 提出 的 计算 
模型 ， 理 论 上 可 以 模拟 供需 缺口 预测 函数 。 
3 ”仿真 实验 
3.1 数据 源 可 视 化 展示 与 分 析 

对 数据 源 进行 可 视 化 分 析 ， 目 的 是 合理 划分 训练 集 和 测试 
集 ， 基 于 此 ， 数 据 源 分 类 训练 模型 ， 通 过 实验 对 比分 类 前 后 的 


模型 预测 精 


值 为 $8.171， 大 于 分 类 后 训练 模型 在 涡 


it 


BE 


度 ， 未 分 类 时 ，LSTM RNN 在 测试 集 上 的 RMSE 
E LWIRZ 43.189, 


发 现 分 类 之 后 的 数据 源 在 模型 上 的 训练 效 


的 误差 更 小 ， 预 测 精度 更 高 。 


数据 源 来 自 HI 
大 赛 ， 所 有 数据 均 为 真实 数据 。 


训练 集 


果 更 好 ， 


ar 


1.46GB 


届 Di-Tech 4 


在 测试 集 上 


表示 编写 4 的 区 域 订 单 


zx 
Sp 


其 中 


=Æ 
而 
区 


ordersCourty, 4, =1255447R H 


为 44， 


目的 地 区 编号 〈dest district id) 为 44 的 订单 
12554， 某 市 当天 ， 该 区 域内 部 往返 订单 量 最 大 ， 在 POI 


出 发 地 


编号 〈start district id ) 


HD 


l 
tl 


o> et AD 


ud mk 


表 中 ，44 号 区 域 设 施 类 


Piai,44y,je.44) 占据 大 部 分 总 


站 
nr 


Piet1,221, je1,22) 订单 上 


些 区 域 订 单 量 为 0; 集合 P,- jell,58] 


法 
， 包 括 某 市 


2016 年 连续 
其 中 ， 订 单 信息 


所 AE 天 UA 息 表 和 POI 信 


24 天 的 数据 信息 ， 本 文选 取 部 分 数据 用 于 实验 。 


息 表 为 数据 库 中 直接 


的 表 信 息 ， 而 区 域 定义 表 、 拥 


堵 信 息 表 是 


生 的 信息 。 订 单 信 ， 
司机 ID (order id) 、 


(price) 、 


出 发 地 区 域 哈 希 值 C start district hash) 、 订 
目的 地 区 域 哈 希 值 (dest_district_hash 
割 成 144 个 时 间 
时 间 惟 (time) 字段 划分 订 


(time) ~ 


间 间 隔 10 分 钟 ， 把 一 天 24 小 时 分 
ART 


时 间 片 内 ， 比 较 订 单 信 
单 所 属 的 时 间 片 。 


(Addns pue puewog ) ba 


BRO FECA 4 


数据 库 中 其 他 表 衍 
ID (order ID) 、 价 格 
| ID (passenger ID) 、 


Pit TAL BL 
) ， 根 据 时 
片 ， 在 每 个 


ge sos 
m yi baie: 
于 ped Gi 
Sri oon ae } 
Mi ll 
ij P 
tt 


o 
和 


ao 


变化 


定义 日 


Demand aie ? Hike 


全 SUP, p ly, date? 


Demand p = 444387#A 2016 年 3 月 
量 是 444387， 相 较 于 前 后 几 天 达到 最 大 值 ， 同 时 ， 
Gapo =82662 也 达到 极 大 值 ， 而 供 
期 二 ， 即 Gapysog =84130。 


需求 
缺口 
现在 2016 年 3 月 8 日 


oe 


se iT Æ ordersCourt, , 


Bl i=start_district_id €[1,58], j 表示 目的 地 
j=dest_district_id €[1,58] 。 


供需 缺 


期 date={0223,0224...0317} , 
O Gap pate ° 


12 H, 


求 


, 


定 文章 
在 图 
某 市 的 订单 


供需 


2 


其 中 i 


表示 出 发 地 区 


在 图 3 4 


,出 发 地 


fa wR O 


的 最 大 值 出 


区 编号 ， 即 
区 为 44 的 集 


示 同 


最 多 ， 设 施 数量 最 多 ; 


中 ， 其 余 区 域 订单 量 较 小 ， 


区 域内 部 来 往 类 型 的 订单 


ath 
qd 
= 
并 
Sung 
ar 
卫 


LIT E, 


特别 是 一 


中 的 元 素 值 普 遍 较 大 ， 表 


WHI 


图 3 2016-02-23 订单 


区 域 分 布 


定义 时 刻 time = {0000,0010...2350} , 
图 4 +, Demand, =4733 ,表示 在 
08:30-08:40， 这 10 分 钟 时 间 内 的 订单 需求 达 


在 


供需 缺口 
2016 年 3 月 1 日 


Gap time ° 


895, thik BIS RA, 5 
Demand =4141 ; 
Gap ooo) =47 » 


G, = {GaP ine 


4 需求 和 供 


需 缺 品 变 化 


到 最 大 值 4773, Gapogy =895 表示 该 
一 个 需求 极 大 值 出 现在 17:30， 即 
特别 地 ， 
零点 之 后 需求 量 减少 ， 
低 ， 考 察 同 时 段 拥堵 信息 
Demand). =1294 $  — it žl A — xe 


time €[0720,0930]} 表示 7:20-9:30 时 间 段 内 的 供 


需求 Demand, 


time » 


缺口 


时 间 段 内 ， 供 需 缺 口 为 


Demand yy =904 , 
供需 缺口 保持 稳定 偏 
拥堵 路 段 少 ， 此 外 ， 


Ht; 集合 


表 3 
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需 缺 口 


15:20-16:10 时 间 段 内 的 供需 


G, = {GaP ime 


供需 缺口 值 集合 ，G4 ={GAPjing 
22:00 时 间 段 内 供需 缺口 值 集合 ， 


值 集 合 ’ 集 合 G, T {GaP ime 


ik 口 


较 大 ， 表 明 这 4 个 时 间 段 网 约 车 供给 不 足 。 


值 集合 ， 


b 现 最 大 供需 缺 


time €[1520,1610]} 表示 


集 


人 
已 


time €[1720,1820]} 表示 17:20-18:20 时 间 段 内 的 


time €[2100,2200]} 表示 21:00- 
这 4 个 集合 中 的 缺口 值 普遍 


E2 H23 H-3 
O, 


未 出 


TROR; 在 周末 


图 5 连续 8 天 Gap 变化 趋势 
在 图 5 中 ，Gapow3og00 =1472， 表 明 2016 4 
月 1 日 8 天 时 间 里 ，2 月 23 日 08:00-08:10 4 
当天 是 星期 二 ， 同 样 出 现在 峰值 附近 网 约 车 订单 需求 量 增加 的 
还 有 周一 到 周 五 ，2 月 27 日 和 2 月 28 日 周末 两 天 里 ， 
现 峰值 ， 特 别 是 星期 日 的 2 月 28 日 ， 供 
这 两 天 ， 网 约 车 供需 缺口 在 较 长 时 间 旦 


17:20 附近 下 降 ， 在 18:40, HO 
15:30 供需 缺口 


有 保持 增长 和 稳定 ， 
增长 ， 特 别 注意 在 2 月 24 H 
由 287 在 10 分 钟 时 间 内 增加 至 1372。 订 单 供需 


缺口 的 变化 以 天 为 

未 来 某 时 间 在 某 区 域 的 供需 缺 

化 调度 ， 组 解 出 行 压力 。 
2016 年 2 月 23 日 ， 


周期 ， 周 末 与 工作 日 
口 ， 可 以 提前 采取 增 派 措施 ， 


有 明显 不 


58 个 区 域 在 144 个 时 间 片 里 的 


L 


值 展 示 如 图 6 所 示 ， 


需 缺 口 值 较 大 ，Gapow36so = 244 表 示 16:50 


XE 44 在 一 天 当中 的 几 个 时 间 区 内 供 


缺口 为 244; 不 同 区 域 一 天 内 的 供需 变化 不 同 ， 


区 


同 。 通 过 预测 


优 


供需 缺 


域 4 的 供需 


因此 ， 训 练 模 


型 时 ， 


区 域 信息 是 重要 医 


供需 值 。 


素 之 一 ， 不 同 区 域 在 着 
变化 存在 一 定 规律 ， 时 间 序 列 数据 选择 同一 区 域 


E 续 几 天 的 供需 


的 连续 几 天 的 


图 6 2016-02-23 时 间 片 


区 域 Gap 分 布 


及 


安 Æ, $: 基于 recurrentneuralnetworks 的 网 约 车 供需 预测 方法 


3.2 ”实验 设计 


选择 数据 源 中 前 
EMEA 


天 的 数据 信 


据 要 预测 的 时 间 ， 坟 


RERE. 


作对 比 ， 本 文 使 用 
方法 分 别 是 : BP 


CSVR) 方法 、 


法 。BP 神经 网 络 是 全 连接 神经 网 络 ， 是 人 了 


能 够 比较 出 网 络 结构 对 模型 精度 的 影 
类 和 回归 两 方面 都 有 较 好 的 能 力 ， 核 函数 不 同 ， 预 测 


核 函 数 包括 线性 核 函 数 、 多 项 式 核 


sigmoid 核 函数 ; 


前 的 供 
本 文 使 用 


Python 2.7、TensorFlow 0. 


Scikit-learn 0.19.0 以 及 Scipy 0.17.0， 
为 了 比较 LSTM RNN 比 


更 强 ， 


定义 如 下 : 


对 比 其 他 不 同方 法 
Fe WY VA Be SE AB A N 


Po aa 


K 


23 天 的 数据 信息 作为 训练 集合 ， 
训练 集合 是 前 23 天 的 数据 ， 根 
定 是 否 排除 周末 的 数据 。 为 了 与 其 他 方法 
其 他 4 种 方法 对 数据 分 别 进行 了 测试 ，4 中 
aE WR TTI. JER H 
可 归 决 策 树 (DTR) 方法 以 及 Random Walk 77 


最 后 1 


二 


回归 支持 向 量 机 


[神经 网 络 最 基本 
的 方法 ， 与 LSTM RNN 同属 深度 学 习 方法 ， 通 过 二 者 的 对 比 ， 


站 表现 ;支持 向 量 机 在 分 


生 能 不 同 ， 


高 斯 核 函 


值 。 
11.0、Protobuf 3.4.0、 
H LSTM RNN 模型 。 
其 他 4 种 方法 在 数据 源 上 的 预测 能 
的 均 方 根 误 差 (RMSE) ， 均 方 根 误 
1 值 之 间 的 离散 程度 ”， 均 方 根 误 差 


n 1 
RMSE(Gap, Gap ) = [LY Gap, 一 Gap )’?? 
na 


算法 3 计算 RMSE 算法 


可 归 决 策 树 是 一 个 贪心 算法 ， 即 在 特征 空间 
上 执行 递归 的 二 元 分 割 ， Random Walk 方法 比较 简单 ， 根 据 当 
需 缺口 值 去 预测 下 一 个 时 间 片 的 缺 


(12) 


输入 : 训练 轮 数 TRAINING_STEPS， 训 练 集合 seq_train, 
测试 集合 seq_test 
输出 ; 均 方 根 误差 rmse。 
1.train X, train Y* 一 


generate_ data(seq train,TIMESTEPS) 


2.test_X, test_Y — 


generate_data(seq_test, TIMESTEPS) 
3.TrainedModel— 
train(train_X,train_Y,TRAINING_STEPS) 


4.predicted—TrainedModel.predict(test_X) 


5.rmse<sqrt((predicted - test_Y) ** 2).mean() 


FE VAR SEP Hae PEIN TL FF A 
算法 ， 得 到 训练 样本 集合 和 训练 样本 标签 集合 ， 同 理 ， 
得 测试 样本 集合 和 测试 样本 标签 集合 ， 如 算法 3 (1 
所 示 ， 然 后 ， 经 过 TRAINING STEPS 次 数 迭 
如 算法 3 (3) 所 


示 ， 获 得 经 过 训 


值 和 真实 值 的 均 方 误 差 RMSE. 


3.3 ”预测 精度 


图 7 展示 了 2016 年 3 月 17 
值 变化 ， 可 以 直观 地 观察 到 ， 预 测 值 


需 值 和 预测 供需 


的 拟 合 了 真实 值 


线 。 


大 


日 44 


为 3 月 17 


昌 ， 经 过 算法 1B 


本 集 构 造 


ASD 


区 域内 24 小 时 的 实际 供 


可 以 获 


) 和 (2) 
练 之 后 的 模型 ， 使 用 该 模型 
对 测试 数据 进行 预测 ， 如 算法 3 (4) 所 示 ， 最 后 ， 计 算 预 测 


日 是 星 


期 四 


$ EY 


线 较 好 
练 集中 
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CRMSE) 对 比如 表 1 所 示 。 需 要 注意 的 是 ， 表 中 所 列 的 


RMSE 值 ， 是 每 种 方法 在 同等 条 件 下 ， 分 别 进行 10 次 实验 得 
到 的 最 小 值 。 其 他 四 种 方法 的 预测 结果 分 别 在 图 8 展示 。 
500 
400 
300 
j 200 
100 
% 20 40 60 80 100 160 
time 
图 7 LSTM RNN 在 测试 集合 预测 值 与 真实 值 曲线 
表 1 LSTM RNN 与 四 种 方法 对 比 
模型 名 称 RMSE 描述 
LSTM 输入 节点 数 1 隐藏 层 数 2, 隐 藏 层 节 点 数 
RNN h = 68 ,截断 长 度 为 2 
BPNN 61.218 ”输入 节点 数 $, 隐 藏 层 数 1, 隐 茂 层 节点 数 50 
SVR 92.217 ”高 斯 核 函数 ,特征 向 量 长 度 为 1 
DTR 98.992 ”特征 向 量 长 度 为 2 
2 个 随机 方向 ,随机 范围 为 (-200,200), 值 范围 
RW 256.393 


为 (0,600) 


通过 对 比 其 他 四 种 预测 方法 ，BPNN 方法 的 均 方 根 误差 值 


为 61.218，SVR 方法 的 均 方 根 误 差 值 为 92.217，DTR 方法 的 
均 方 根 误差 值 为 98.992，RW 方法 的 均 方 根 误差 值 为 256.393。 
其 中 ，LSTM RNN 方法 的 误差 在 10 次 实验 中 ， 最 大 值 是 


46.377， 表 明 LSTM RNN 在 测试 集合 上 的 误差 变化 小 ， 


性 能 比较 稳定 BPNN 方法 的 误差 在 10 次 实验 


95.221, IRAE RAM 


BEEK, 


稳定 ; SVR 方法 的 误差 在 10 次 实验 中 变 
近 ， 说 明 SVR 方法 在 测试 集合 上 的 预测 稳定 


定 在 92 附 ; 


预测 
中 的 最 大 值 为 


表明 BPNN 方法 的 预测 性 能 
化 较 小 ， 


RMSE 值 稳 


观察 不 同 节点 数 对 RMSE 大 小 的 影响 ， 如 


hinaxiy 合 作 期 刊 


录用 稿 Se Æ, : ÄT recurrentneuralnetworks 的 网 约 车 供需 预测 方法 
排除 了 周末 的 6 天 数据 。 模 型 的 具体 参数 与 均 方 根 误差 值 ， 找 到 最 优 的 LSTMRNN 结构 ， 在 隐藏 层 数 为 2 的 基础 上 ， 


区 


9， 当 隐藏 层 节 点 


数 较 小 时 ，RMSE 较 大 ， 随 着 隐藏 层 节点 数 越 来 越 大 ，RMSE 


也 越 来 越 小 ， 
后 ， 


隐藏 层 


当 隐 藏 层 节点 数 为 68 I, RMSE 达到 最 小 ， 
节点 数 越 来 越 大 ， 


此 
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